高考数学新题型试卷质量分析研究
引用格式:任子朝,陈昂,黄熙彤,等.高考数学新题型试卷质量分析研究[J].数学教育学报,2019,28(1):1-7.
任子朝1,陈昂1,黄熙彤2,赵轩1,张敏强2
(1.教育部考试中心,北京 100084;2.华南师范大学 心理学院,广东 广州 510631)
任子朝(1961—),男,北京人,教育部考试中心研究员,主要从事数学教育、教育测量研究.
基金项目国家教育考试科研规划2017年度课题——新高考不分文理科后的数学命题研究(GJK2017005)
关键词:高考改革;新高考;高考不分文理科;数学新题型试卷;质量分析
中图分类号:G632.0 文献标识码:A 文章编号:1004–9894(2019)01–0001–07
1研究背景与问题提出
1.1 高考改革
2013年,《中共中央关于全面深化改革若干重大问题的决定》指出高考改革的方向[1],2014年,《国务院关于深化考试招生制度改革的实施意见》(以下简称《实施意见》)进一步明确提出深化高考内容改革的要求,“依据高校人才选拔要求和国家课程标准,科学设计命题内容,增强基础性、综合性,着重考查学生独立思考和运用所学知识分析问题、解决问题的能力”[2].并且在上海和浙江启动了高考综合改革试点,进行科目改革,“改革考试科目设置.增强高考与高中学习的关联度,考生总成绩由统一高考的语文、数学、外语3个科目成绩和高中学业水平考试3个科目成绩组成.保持统一高考的语文、数学、外语科目不变、分值不变,不分文理科,外语科目提供两次考试机会”.2017年、2018年分别有山东、广东等10个省市加入.高考综合改革后,统考科目只有语文、数学、外语3门,因此对3个统考科目的功能定位和区分功能提出新的要求.3个学科要发挥基础学科、通用学科和工具学科的特点,特别是数学学科不再分文理科,所有考生使用同一张试卷,数学科的考查目标和考试形式都迫切需要进行改革,以适应高考整体改革和人才选拔的需要.
新一轮的考试招生制度改革,明确了高考改革的时间表和路线图.《实施意见》这是对学科考查内容和考查要求提出的总体改革要求,各学科都要在考试中贯彻落实.
1.2 高考评价体系
2016年,教育部考试中心开始高考评价体系的研制工作,明确了“立德树人、服务选才、引导教学”的核心功能,“必备知识、关键能力、学科素养、核心价值”的考查内容以及“基础性、综合性、应用性、创新性”的考查要求[3-4].高考数学科基于高考核心功能,以“一核四层四翼”的高考评价体系框架为指导,梳理、总结国内外对人才培养和选拔的要求,依据新修订的《普通高中数学课程标准》,构建高考数学学科化的评价内容框架和指标体系[5].
随着高考改革的深入和高考评价体系的建立,作为统考科目的数学科考试目标、考查内容和考查要求都发生了变化,需要与此相适应的新的题型实现考查目的和考试效果,更加精确地区分考生,发挥对中学教学积极的导向作用.数学科构建了学科化的评价框架,研究设计了新题型试卷结构,开发了新的题型,命制了新题型测试卷,在广东、山东和浙江进行了测试,并对与测试试卷的考查目标、题型结构、题型功能等相关的统计数据和问卷调查结果进行系统分析研究,对高考数学科的命题改革进行实证分析和理论探索.
2 研究设计
2.1 测试目标
测试设计了考试时间为120分钟的完整试卷,题型顺序按单项选择题、多项选择题、填空题和解答题排列.多项选择题是有多个正确项目的选择题(以下简称多选题),全部选对的得4分,有选错的得0分,部分选对的得2分.填空题有包含两个空的填空题,每个空填对得2分.采取这样的设计可以将新题型试题与现行高考使用的单选题、只有一个空的填空题和解答题进行比较,检验测试效果.测试的目的就是检验新题型试卷的考查和区分功能,听取中学师生对新题型试卷的反馈意见,改进题型设计和试卷结构,为新高考数学考试的改革进行理论和实践的研究.
2.2 测试对象
测试在2018年3月—5月进行,对象选取广东、山东和浙江的高三学生.其中在广东抽取5个地市18所高中(重点高中10所,普通高中8所),共4 745名考生参加测试,其中文科考生2 240名,理科考生2 505名.部分参加测试的广东学生同时参加了全国I卷的测试,其考试结果用于对新题型试卷进行效度分析和检验.在山东省抽取2所高中(重点高中和普通高中各1所),共1 031名考生参加测试,其中文科考生411名,理科考生620名.在浙江省杭州市抽取3所高中(重点高中1所,普通高中2所),共819名考生参加测试.浙江已经实行不分文理科的教学和考试改革,所以没有文理科考生之分.
考生完成测试后继续作答配套的学生问卷,任课教师及阅卷教师完成相应的教师问卷.然后选取部分学生和教师代表进行深度访谈.
为记录考生的作答时间,广东的部分考场在单选题、多选题部分采取上机测试;填空题、解答题采取计算机呈现题目内容,考生纸笔作答,再利用高速摄影机拍照上传答案,记录考生作答时间,用于对考生每题的答题时间和全卷答题时间进行分析.
2.3 测试工具
测试试卷根据新高考的要求命制,试卷结构如表1.
表1 高考新题型试卷结构
其中多选题有5个备选项,在每小题给出的选项中,有多项符合题目要求.
2.4 问卷调查
问卷分教师问卷和学生问卷,教师问卷包括新题型试卷反馈16个问题,高考改革意见12个问题,共28个问题.学生问卷包括新题型试卷反馈10个问题,高考改革意见9个问题,共19个问题.
2.5 测量理论和数据分析方法
采用教育与心理测量领域中3种重要的测验理论:经典测量理论(CTT)、概化理论(GT)和项目反应理论(IRT).根据3种理论的特点,取3者各自之长,分别从微观和宏观角度分析数据,全面解读测试结果,综合多种评价指标和统计图表,多元化呈现分析结果,全面反映新题型试卷的质量与考生的能力水平.
利用经典测量理论分析试卷的难度、信度,试题的难度、区分度,对比分析文理科考生作答差异.进行效度分析,将新题型试卷测试数据与广东省2018年全国I卷实考数据,按照考生身份证号进行匹配,以考生在广东省2018年全国I卷实考成绩为效标,分析新题型试卷的效标关联效度.
利用概化理论分析试卷的全域方差、概化系数、可靠性等指标.对新题型试卷进行试卷结构分析,以2018年全国I卷为比较依据,采用多元概化理论对新题型试卷进行分析,通过决策研究为探索各题型最合适的题量提供参考依据,通过贡献率等测量指标比较两卷的结构差异.
利用项目反应理论分析题目难度与考生水平的适应程度、试题的信息量、试卷的信息曲线.测试采取“锚人”设计,使试卷质量与考生能力均具有可比性,为试卷分析提供了多种思路.一方面从试卷质量的角度验证试卷结构的合理性,另一方面从考生能力角度研究新题型试卷对文理科考生的区分功能.研究考生能力表现,通过新题型试测项目,建立2017年全国I卷抽测(2018年1月考试)数据与2018年全国I卷实考(2018年6月考试)数据之间的联系,比较同一批考生在两卷上的能力表现.
3数据分析
3.1 经典测量理论
3.1.1 新题型试卷整体质量较好
利用经典测量理论统计分析了新题型试卷的基本测量数据.新题型试卷与2017、2018年全国I卷测试结果如表2所示.
表2 新题型试卷与2017和2018年全国I卷测试结果
表2 新题型试卷与2017和2018年全国I卷测试结果(续)
注:2017年全国I卷(广东省)数据为数学新题型试测项目中的高三考生抽测数据,而非2017年高考实考数据.
新题型试卷对考生的区分功能是试卷最重要的测量指标,标准差和变异系数反映试卷的区分功能.从表2看出,广东和山东的全体考生的标准差都比较高,分别达到了22.62和25.36,对两省的文科考生和浙江省考生,标准差都达到20左右,变异系数度都在0.25以上,远高于变异系数为0.15的合格水平[6],说明考生的离散程度很好,对考生的区分符合测量学要求.可能是因为试卷偏难,影响了试卷对文科考生的区分功能,使得文科考生的标准差略小.同样的原因,试卷的信度对广东和山东的全体考生都达到了0.8以上,而对两省的文科考生和浙江省考生试卷的信度为0.75以上.新题型试卷对3个省的考生都有一定的难度,广东和浙江考生的最高分只有128分和123分.在依然实行文理分科的广东和山东,文理科考生的差距在15~30分,山东理科考生的平均分为88.31,试卷难度为0.58,属于偏易水平.广东和山东文科考生的最高分只有109.5分和112分,试卷对文科考生属于偏难水平.统计数据的偏度和峰度的绝对值都远小于1,考生呈良好的正态分布.试题难度分布较广,大部分试题区分度良好.整卷信息量较高,能够准确测量大部分考生的能力.
比较全国I卷2017年广东省实考数据与2018年广东省测试数据发现,测试数据的文理科考生平均分均明显高于实考数据相应的分数.考后访谈时学生介绍了复习的情况,因为广东省高考使用的是全国I卷,抽测考生在2017年是高二学生,高考结束后教师讲解了2017年的高考试题,学生也以2017年全国I卷作为练习试题.因此考生接受过专门辅导,存在一定程度的练习效应.
3.1.2 新题型试卷的效标关联效度较高
为探究新题型试卷的外部效度,将广东省考生的新题型测试数据与其在2018年全国I卷实考数据进行匹配,以2018年全国I卷实考成绩为效标,计算两组数据的皮尔逊积差相关系数.考生在全国I卷与新题型试卷上的得分具有较高的一致性,相关系数分别达到文科0.76、理科0.78(见表3),文理科考生样本结果均显示新题型外部效度良好.新题型试卷在全体考生、文科考生、理科考生中均有较高的信度和效度.
表3 新题型试卷效标关联效度(以2018年全国文科和理科I卷为效标)
3.1.3 文理科学生数学水平差异明显
广东理科考生整卷平均分比文科考生高15分左右,山东理科考生整卷平均分比文科考生高30分左右.在考查内容上,立体几何和统计与概率的得分差异最大,在能力成分上,空间想象和创新应用的得分差异最大.具体见表4.
表4 广东文理科考生在各考查内容与能力成分得分率差异
比较文理科考生在各考查内容与能力成分的得分率,发现理科考生在所有维度的得分率均高于文科考生,但各维度上的得分率差异程度不同,将得分率差异(理科生得分率-文科生得分率)程度排序如下.
文理科考生在不同考查内容上得分率差异从大到小依次为:立体几何、概率与统计、三角函数、解析几何、代数.
文理科考生在不同能力成分上得分率差异从大到小依次为:空间想象能力、创新应用能力、数据处理能力、运算求解能力、逻辑思维能力.
3.2 概化理论
3.2.1 多元概化统计数据
新题型试卷4种题型的多元概化研究结果见表5.方差分量最大的题型是解答题(3.90),其次是填空题(0.40)、单选题(0.37)和多选题(0.30).由于方差分量体现了不同题型在试卷中所起的作用,故在新题型试卷中,解答题的作用最大,填空题、单选题和多选题次之.同时,4种题型之间的相关系数均较高.
表5 新题型试卷4种题型的多元概化研究
注:主对角线元素为各维度的方差分量估计,对角线以下为维度间的协方差分量估计,对角线以上为维度间的相关系数估计.
3.2.2 多元概化决策研究结果
按照4种题型试题量所占比重来决定权系数,对4种题型全域总分进行合成,可得到决策研究结果,见表6.全域总分的概化系数(类似于常模参照测验中的信度)和可靠性指数(类似于标准参照测验中的信度)分别为0.83和0.72,相对误差和绝对误差均较低.从各个题型来看,概化系数和可靠性指数最高的是解答题,其次是单选题、填空题和多选题.全域总分的概化系数和可靠性指数均高于4种题型的概化系数和可靠性指数,说明全域总分的合成是有意义的.
表6 新题型试卷4种题型的多元概化决策研究
根据多元概化决策研究的结果可得到4种题型对全域总分的贡献比例(即对全域方差的贡献),见表7.4种题型对全域方差的贡献比例与当初命题时的赋分意图(即分值比例)基本接近.
表7 新题型试卷4种题型对全域总分的贡献率
题型设置较为合理,题量分配有待优化.表7的概化分析结果表明,新题型试卷中的4种题型(单选题、多选题、填空题、解答题)得分合成的总分是有意义的,且在各题型上,考生作答与命题教师期望的考查权重较为一致,即4种题型的设置较为合理,但各题型的题量分配有优化的空间.通过数据分析发现,增加多选题的题目数量对于提高整体测量信度效果最好.
3.2.3 试卷结构较合理
由概化分析结果可知,在新题型试卷中,全域总分 的概化系数 和可靠性指数 高于4种题型的概化系数和可靠性指数,说明全域总分的合成是有意义的.在试卷中,4种题型对全域总分的贡献比例与命题的赋分比例基本接近.
4种题型增加题目数量均有利于提高概化系数和可靠性指数,其中增加多选题,信度提高更明显.通过试卷结构优化分析发现,在保持试卷测试时长和分值稳定的前提下,为提高概化系数和可靠性指数,将单选题增加为10道,多选题增加为3道,填空题减少为4道,解答题保持为6道时,整体测量信度较为理想,且有助于提高考生的得分率,详见表8.
表8 新题型试卷信度变化
3.3 项目反应理论
3.3.1 参测考生能力对比
为比较参与新题型测试的3省考生能力差异,通过Parscale软件进行同时估计,分别得到3省考生的能力,结果如下:从3省全体考生的能力均值结果看,浙江省考生能力均值最高,山东省次之;从广东省和山东省文、理科考生的能力均值结果看,山东省文、理科考生能力均值均较高;同时,广东省与山东省的理科考生能力均值高于其相应的文科考生能力均值(见表9).
表9 3省考生能力均值比较
3.3.2 测验信息量
由IRT的试题信息量结果(见表10)及测验信息量结果(见图1~图3)可得,除广东省文科考生样本外,新题型试卷在其他不同考生样本中满足期望信息量的题目比例均超过70%,这说明新题型试卷具有较高的信息量,能够较准确地测量出大部分考生的数学能力(注:根据ETS标准,IRT中测验信息量为5对应CTT中信度为0.80,文献来源:YOUNG J W, MORGAN R, RYBINSKI P, et al. Assessing the test information function and differential item functioning for the toefl junior ® standard test. Ets Research Report, 2013 (1): 1–27. ).
表10 3省新题型试卷试题信息量概况
图1 广东省(全体考生)新题型试卷测验信息曲线
图2 山东省(全体考生)新题型试卷测验信息曲线
图3 浙江省新题型试卷测验信息曲线
4问卷调查统计结果分析
问卷调查包括对新题型试卷的反馈意见和对新高考数学科改革的建议等部分内容.
4.1 对新题型试卷的反馈
4.1.1 试卷整体评价
从表11可以发现,多数考生认为新题型试卷难度、技巧性偏高,而多数教师则认为试卷难度及技巧性适中;在试卷涉及知识点上,考生和教师都认为试卷涉及知识点范围合适,试卷考查的能力较为全面.
表11 试卷评价统计
新题型卷由于改变了传统的试卷结构,考生可能还不能适应新的试卷,导致考生认为试卷的难度和技巧性偏高,而知识内容并没有太大的变化,所以考生认为知识点与能力适中.
在试卷难度和技巧性方面,与考生相比,多数教师认为试卷难度与技巧性适中,这可能是由于教师对新高考改革后试卷的结构变化有预期,没有受到试卷结构变化的干扰.
4.1.2 试卷和各题型题量
从表12可以发现,多数考生反馈该卷总题量及各题型题量合适,但在具体题型上,约三分之一考生认为填空题、多选题题量偏多,有近一半考生认为解答题题量偏多,多数教师反馈试卷总体量及各题型题量是合适的.
表12 各题型题量反馈统计
结合作答时间(表13)可知,考生基本能在规定时间内完成试卷作答,各题型的用时比例与分值比例接近.其中单选题由于其作用主要是考查基础知识,所以其用时比例略低于其分值比例.解答题的作答时间最多,远多于其它题型,也高于其分值比例.由于解答题要求考生完整写出解答过程才能得分,考生用时较多,导致考生主观上认为解答题题量偏多.考后访谈时考生谈到他们认为填空题题量偏多的原因,由于新题型试卷的填空题比现行高考多一个题,而且填空题不像选择题有备选项可以核对答案,所以学生做完填空题后要再次验证,造成考生认为填空题题量偏多.
表13 文理科各题型作答时间对比
4.1.3 试卷考查的数学能力
从表14可以发现,考生和教师对试卷考查能力重视程度与考生的实际得分率一致.在试卷考查能力中,考生和教师认为运算求解能力、空间想象能力较为重要,其次是逻辑思维能力和数据处理能力,创新应用能力重视程度最低.
表14 各数学能力的得分率和重要程度统计
注:①重要程度为学生或教师对各数学能力重要程度的平均赋分,赋分范围为1~5分;②得分率为试卷得分/总分.
4.2 对新高考数学改革的意见和建议
4.2.1 高考文理合卷后难度设置
从表15可以发现,考生与教师反馈认为合卷后的试卷难度应处于文科卷与理科卷之间,其中选择偏向于理科卷难度的人数多于偏向于文科卷难度的人数.
表15 高考文理合卷后难度统计
4.2.2 高考文理合卷后新题型设置
从表16可以发现,考生与教师反馈认为高考数学文理合卷后不需要增加新题型.这可能是因为原来自主命题的省份已经使用3年全国卷,师生对全国卷逐渐适应,受求稳心理影响,不希望试卷增加新题型;在增加新题型的情况下,开放题和逻辑题的支持者较多.
表16 高考文理合卷后是否需要增加新题型
4.2.3 高考数学试卷改进方向
从表17可以发现,多数考生和教师均反馈高考数学需降低试题难度,这可能是基于合卷后考生平均水平将会降低的考虑,认为数学科应该降低试卷难度,以适合全体考生的平均水平.同样的原因,有半数考生和教师希望减少计算量以降低考生的答题强度.有半数以上的考生和教师认为目前的试卷题量合适,但有三分之一的考生和教师认为应该减少题量.半数左右的考生和教师认为应该增加试题的应用性,这一点考生与教师的意见非常一致.比较矛盾的统计结果是对技巧性的处理,三分之一的考生认为应该增加技巧性,还有三分之一的考生认为应该减弱技巧性,这可能反映了文理科考生对技巧性的不同心态.理科考生希望增加技巧性以便自己能脱颖而出,而文科考生希望减弱技巧性以提高自己的考试分数.教师和考生对现行数学试卷的题量、技巧性、应用性、计算量比较认可,认为无需改进.对比教师和考生的反馈,可以看出教师求稳的心态更加强烈,不希望高考数学试卷进行大的改变.
表17 高考数学考试改进方向统计
4.3 高考数学信息反馈
4.3.1 信息反馈内容
从表18可以发现,考生与教师对于考生排名情况不是特别关注,更希望获得关于知识、思想方法以及数学能力水平方面的信息.
表18 学生希望了解到的考试信息
4.3.2 信息反馈形式
表18、表19可以发现,相较于整卷得分、排名等传统信息,考生更期望了解自己在知识模块、数学思想模块、数学能力水平、小题得分及失分点等方面的情况,说明考生更注重对自身水平的全面认知与诊断.
表19 高考数学试卷应该如何提供分数报告
5结论与思考
(1)新题型试卷整体质量较好,文理科考生作答存在差异.新题型试卷在全体考生、文科考生、理科考生中均有较高的信度和效度,考生在全国I卷与新题型试卷上的得分具有较高的一致性(相关系数文科0.77、理科0.76).试题难度分布较广,大部分试题区分度良好.整卷信息量较大,能够准确测量大部分考生的能力.其中,理科考生整卷平均分比文科考生高15分以上,在考查内容上,立体几何和统计与概率的得分差异最大,在能力成分上,空间想象和创新应用的得分差异最大.今后进一步加强对“文理不分科”后考生整体数学水平的研究,以便科学地确定试卷难度及试题难度分布,为新高考数学科命题提供依据.
(2)题型设置较为合理,题量分配有待优化.概化分析结果表明,新题型试卷中的4种题型(单选题、多选题、填空题、解答题)得分合成的总分是有意义的,且在各题型上,考生作答与命题教师期望的考查权重较为一致,即4种题型的设置较为合理,但各题型的题量分配有优化的空间.通过数据分析发现,增加多选题的题目数量对于提高整体测量信度效果最好.
(3)多选题有利于提高全卷得分率,有利于区分考生,选项数量设置有必要改进.相比于传统单选题而言,考生作答多选题时会有更多得分模式.从多选题的得分情况来看,得中间分数(2分)的考生比例较大,即多选题更容易让考生得到基础分,从而有利于全卷得分率的提升.同时,多选题的选项总数和正确选项数量会影响考生的作答时间和得分率.具体而言,与同等难度的单选题(4个选项)相比,多选题选项总数(5个选项)较多,考生作答时间较长;相同选项总数的多选题中,正确选项数目越多,考生的得分率越高.在“文理不分科”背景下,多选题的多级得分模式有利于提高低水平考生的得分,也有利于区分出高能力考生,因此,在新高考数学中建议引入多选题,但选项数量应该减少.
(4)文理科考生在新题型试卷上采取的作答策略存在差异.通过文理科考生在不同题型、考查内容以及能力成分上的作答时间和对考生的访谈可以发现,考生的作答策略存在文理科差异.理科考生在分值较高、考查能力较强的试题上分配时间较多,采取的是得分策略;文科考生在分值较低,考查基本能力的试题上分配时间较多,采取的是保分策略.建议继续开展数学学科上机测试的实践,深入研究其规律和特点,推进考试改革进程.
(5)进行省际考生水平比较需要更多的数据支持.测试在抽样时,在广东省抽测的学生人数较多、抽测的学校比较均衡,基本能代表全省的水平.而在山东和浙江抽测的学生人数较少、学校也不够均衡,因此样本的代表性受到一定影响.故在进行省际间考生数学水平比较时仍需要更多的数据支撑.
高考数学新题型测试贯彻高考内容改革的指导思想,以高考评价体系和新高校数学科的学科评价框架为依据,考查了必备知识、关键能力和学科素养,有效地区分了考生,得到中学教师和学生的认可.测试为数学科高考改革进行了理论和实践探索,取得了宝贵的统计资料和命题经验,为数学科内容改革的深入奠定了坚实的基础.
[1] 中共中央关于全面深化改革若干重大问题的决定[M].北京:人民出版社,2013.
[2] 国务院.国务院关于深化考试招生制度改革的实施意见[M].北京:人民出版社,2014.
[3] 姜钢.探索构建高考评价体系,全方位推进高考内容改革[N].中国教育报,2016-10-11(3).
[4] 于涵.不忘初心 推进新高考改革 面向未来 构筑现代化考试[J].中国高教研究,2018(3):17-22.
[5] 任子朝.新高考数学科考核目标与考查要求研究[J].课程·教材·教法,2018,38(6):21-25.
[6] 任子朝,关丹丹,陈昂.高考试卷区分功能评价方法研究[J].中国考试,2017(10):7-12.
Research on Quality Analysis of New Mathematics Test Papers in College Entrance Examination
REN Zi-zhao1, CHEN Ang1, HUANG Xi-tong2, ZHAO Xuan1, ZHANG Min-qiang2
(1. National Education Examinations Authority, Beijing 100084, China; 2. School of Psychology, South China Normal University, Guangdong Guangzhou 510631, China)
Abstract: The new college entrance examination had been reformed regardless of liberal arts and sciences. The orientation, content and form of the mathematics test in CEE, as well as the examination group and level had changed. It was necessary to study new types of questions, examination paper structure and difficulty levels. According to the requirements of the reform of college entrance examination, the mathematics test in CEE had constructed a scientific evaluation framework, designed the new structure of the examination papers, made the new type examination papers, tested them in Guangdong, Shandong and Zhejiang. Focus on indexes of the new type examination papers and mathematics test reform direction, questionnaires and interviews were conducted among teachers and students. The analysis of the statistical data showed that the quality of the new test paper was high, and it could distinguish the candidates accurately. The structure of the test paper was basically reasonable. The multiple-choice questions with more than one correct option achieve the purpose of the test and contribute to distinguishing the candidates. Questionnaires and interviews showed that teachers and students believe that the new type of questions, the quantity of items in test paper and the difficulty were basically reasonable. In the future, the mathematics test in CEE should reduce the difficulty and skill of question and increase the applicability.
Key words: college entrance examination reform; new college entrance examination; college entrance examination is no longer divided into arts and sciences; new type of mathematics test paper; quality analysis
来源:数学教育学报JME公众号